70 research outputs found

    Audio Caption: Listen and Tell

    Full text link
    Increasing amount of research has shed light on machine perception of audio events, most of which concerns detection and classification tasks. However, human-like perception of audio scenes involves not only detecting and classifying audio sounds, but also summarizing the relationship between different audio events. Comparable research such as image caption has been conducted, yet the audio field is still quite barren. This paper introduces a manually-annotated dataset for audio caption. The purpose is to automatically generate natural sentences for audio scene description and to bridge the gap between machine perception of audio and image. The whole dataset is labelled in Mandarin and we also include translated English annotations. A baseline encoder-decoder model is provided for both English and Mandarin. Similar BLEU scores are derived for both languages: our model can generate understandable and data-related captions based on the dataset.Comment: accepted by ICASSP201

    A Comprehensive Survey of Automated Audio Captioning

    Full text link
    Automated audio captioning, a task that mimics human perception as well as innovatively links audio processing and natural language processing, has overseen much progress over the last few years. Audio captioning requires recognizing the acoustic scene, primary audio events and sometimes the spatial and temporal relationship between events in an audio clip. It also requires describing these elements by a fluent and vivid sentence. Deep learning-based approaches are widely adopted to tackle this problem. This current paper situates itself as a comprehensive review covering the benchmark datasets, existing deep learning techniques and the evaluation metrics in automated audio captioning

    Photochemical dissolution of microplastics in seawater = Dissolution photochimique des microplastiques dans l'eau de mer

    Get PDF
    RÉSUMÉ : Les plastiques présents dans l'océan y sont très largement répandus, et créent quantité d'effets néfastes pour les écosystèmes marins comme pour les êtres humains. Parmi cette pollution, les microplastiques (abrégés en « MPs », <5 mm en diamètre) sont le type de plastique le plus abondant dans l'océan, lorsqu'on compte en nombre de particules. Ils sont à l'origine de vives inquiétudes environnementales et sociétales contemporaines, car leur taille microscopique leur permet d'être ingérés par d'autres organismes, bioaccumulés dans la chaîne alimentaire et transportés sur de grandes distances et pendant de longues périodes. Ainsi, comprendre la transformation et l'avenir des microplastiques est crucial pour mieux estimer leurs impacts environnementaux, puis y répondre. Bien que la photooxydation ait été envisagée comme le processus de dégradation le plus efficace des plastiques à la surface de l'océan, les connaissances quantitatives de ce processus restent limitées, en particulier pour les MPs de petite taille. Notre étude cherche en partie à répondre à ce problème, car elle vise à fournir de nouvelles données pertinentes pour évaluer comment la conversion photochimique des MPs en matière organique dissoute (c'est-à-dire la photodissolution) va affecter leur avenir à la surface des mers et des océans. Pour cela, des MPs d'une taille inférieure au millimètre et de trois types très répandus (polypropylène (PP), polystyrène (PS), uréthanne thermoplastique (TPU) ont été incorporés à de l'eau de mer artificielle et irradiés dans un simulateur solaire. Les taux de photodissolution des MPs ont été déterminés en termes de photoproduction de carbone organique dissous (DOC), de matière organique dissoute chromophorique (CDOM, représentée par le coefficient d'absorption à 254 nm), et d'azote dissous (DN) dans le cas du TPU. Les effets de la température de l'eau et de la composition de la lumière incidente sur la photodissolution des MPs ont aussi été évalués. Sous irradiation à spectre complet, les photoproductions de DOC et de CDOM ont été observées pour chacun des trois types de microplastiques, ainsi qu'une libération de DN pour le TPU ; leurs taux de production ayant augmenté exponentiellement sur une période d'irradiation de 7 jours. Le TPU et le PS étaient plus photodégradables que le PP, d'après le pourcentage de photodissolution du carbone plastique. Le CDOM photoproduit à partir du PP présentait un pic d'absorption à 292 nm caractéristique des cétones aliphatiques. La dépendance de la photodissolution à la température a augmenté avec le temps d'irradiation pour ce qui est du PP et du PS. En revanche, elle est restée plutôt constante pour le TPU. Pour une augmentation de 20°C de la température, le taux de photoproduction de DOC a augmenté de 970% pour le PP, de 288% pour le PS et de 413% pour le TPU à la fin d'une irradiation de 7 jours, avec une énergie d'activation comprise entre 59,4 et 84,8 kJ mol-1. La photodissolution des MPs était presque exclusivement induite par le rayonnement ultraviolet-B (UVB : 290-320 nm), avec assez peu d'effets pour les UVA (320-400 nm) et le rayonnement visible. La DOM photoproduite depuis le PS était au moins en partie photominéralisable, tandis que la DOM photoproduite à partir du PP et du TPU a semblé résistante à la photominéralisation. L'extrapolation des taux de photoproduction du DOC obtenus en laboratoire à l'océan de surface donne des estimations de durées de vie de 6,5 ans pour le PP, de 3,6 ans pour le PS et de 3,7 ans pour le TPU dans les eaux chaudes. Cela suggère que la photodissolution peut être un mécanisme important pour expliquer l'absence de puits de plastiques de taille inférieure à un millimètre observée dans les gyres subtropicaux de l'Atlantique Nord et du Pacifique Nord. Les résultats de cette étude indiquent également que la variation de température de l'eau semble un facteur plus important que le changement de l'irradiation pour déterminer les taux de photodissolution des MPs, lorsqu'ils passent des eaux chaudes aux eaux froides ou vice versa. -- Mot(s) c é(s) en français : Microplastiques, photodégradation, eau de mer, carbone organique dissous, matière organique dissoute chromophorique, azote dissous. -- ABSTRACT : Plastics in the ocean are widespread and pose adverse effects to marine ecosystems and human beings. Microplastics (MPs, <5 mm in diameter) are the most abundant plastic form in the ocean in terms of number of pieces. MPs draw particular environmental and societal concerns because their small sizes allow them to be ingested by organisms, bioaccumulated in the food web, and transported over larger time and space scales. Understanding the transformation and fate of MPs is thus crucial for assessing their environmental impacts. Although photooxidation has been proposed as the most efficient degradation process of plastics in the surface ocean, quantitative knowledge of this process remains limited, particularly for smaller-sized MPs. This study aims to provide new data that are useful for assessing the role of photochemical conversion of MPs to dissolved organic matter (i.e. photodissolution) in controlling the fate of MPs in the surface ocean. Three common types of MPs with sub-millimeter sizes polypropylene (PP), polystyrene (PS), and thermoplastic polyurethane (TPU) were irradiated in artificial seawater under solar-simulated radiation. The photodissolution rates of the MPs were determined in terms of photoproduction of dissolved organic carbon (DOC), chromophoric dissolved organic matter (CDOM, represented by the absorption coefficient at 254 nm), and dissolved nitrogen (DN) as well, in the case of TPU. The effects of water temperature and incident light composition on the photodissolution of MPs were evaluated. Under full-spectrum irradiation, the photoproduction of DOC and CDOM was observed in all three microplastic samples and DN in TPU; their production rates increased exponentially over an irradiation period of 7 days. TPU and PS were more photodegradable than PP based on the percent plastic carbon photodissolution. CDOM photoproduced from PP exhibited an absorption peak at 292 nm, which is characteristic of aliphatic ketones. The temperature dependence of photodissolution increased with irradiation time for PP and PS but remained essentially constant for TPU. For a 20°C increase in temperature, the photoproduction rate of DOC increased by 970% for PP, 288% for PS, and 413% for TPU at the end of a 7-d irradiation, with the activation energy in the range of 59.4-84.8 kJ mol-1. Photodissolution of the MPs was almost exclusively driven by ultraviolet-B (UVB: 290-320 nm) radiation, with little impact by UVA (320-400 nm) and visible radiation. DOM photoproduced from PS was at least partially photomineralizable, while DOM photoproduced from PP and TPU appeared resistant to photomineralization. Extrapolation of the lab-based DOC photoproduction rates to the surface ocean yields lifetime estimates of 6.5 years for PP, 3.6 years for PS, and 3.7 years for TPU in warm waters, suggesting that photodissolution can be a significant mechanism for explaining the missing sink of sub-millimeter-sized plastics in the subtropical gyres in the North Atlantic and the North Pacific. The results from this study also indicate that the change in water temperature is more important than the change in irradiance in controlling the photodissolution rates of the MPs when they move from warm waters to cold waters or vice versa. -- Mot(s) clé(s) en anglais : Microplastics, photodegradation, seawater, dissolved organic carbon, chromophoric dissolved organic matter, dissolved nitrogen

    Enhance Temporal Relations in Audio Captioning with Sound Event Detection

    Full text link
    Automated audio captioning aims at generating natural language descriptions for given audio clips, not only detecting and classifying sounds, but also summarizing the relationships between audio events. Recent research advances in audio captioning have introduced additional guidance to improve the accuracy of audio events in generated sentences. However, temporal relations between audio events have received little attention while revealing complex relations is a key component in summarizing audio content. Therefore, this paper aims to better capture temporal relationships in caption generation with sound event detection (SED), a task that locates events' timestamps. We investigate the best approach to integrate temporal information in a captioning model and propose a temporal tag system to transform the timestamps into comprehensible relations. Results evaluated by the proposed temporal metrics suggest that great improvement is achieved in terms of temporal relation generation
    corecore